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摘要 : [目的 /意义 ] 在 引文 分 析 中 ,可 通过 论文 的 一 些 属性 特征 对 其 未 来 的 被 引 情 况 进行 预测 ,并 通过 预 
测 结 果 对 论文 .论文 作者 、 作 者 所 属 机 构 及 出 版 物 做 出 评价 。[ 方 法 /过 程 ] 从 出 版 物 、 作 者 和 论文 三 个 方面 对 
影响 论文 被 引 的 多 个 因素 展开 研究 ,以 图 书馆 学 情报 学 领域 被 SCI 索引 的 论文 作为 分 析 及 验证 数据 ,使 用 逻辑 
回归 、GBDT、XGBoost、AdaBoost、 随 机 森林 等 算法 进行 预测 ,使 用 多 组 评测 指标 对 比 不 同 预测 方法 的 效果 ,并 使 
用 GBDT 识别 对 论文 被 引 影 响 较 大 的 因素 。[ 结果 /结论 ] 确 定 三 个 方面 的 影响 因素 对 论文 被 引 预 测 的 影响 程 
度 , 构 建 预测 模型 ,并 较 好 地 预测 论文 在 未 来 一 段 时 间 的 被 引 情 况 。 大 量 实验 分 析 发 现 GBDT、XGBoost 和 随机 
森林 的 预测 能 力 较 强 , 且 预测 的 时 间 段 越 长 ,效果 也 就 相对 越 好 。 
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在 种 研 活动 中 ,学 术 成 果 间 的 引用 扮演 着 重要 的 角色 。 
研究 人 员 通 过 引用 他 人 的 文章 来 说 明 研 究 背 景 ,阐明 
学 四 观点 ,建立 学 术 研 究 之 间 的 脉络 联系 。 学 术 评 价 
工作 也 常常 通过 分 析 论 文 的 被 引用 情况 ,间接 地 评测 
论 交 作者 、 作 者 所 属 机 构 以 及 发 文 期 刊 的 学 术 影响 
力 @@ 为 了 度量 学 术 影 响 力 ,研究 人 员 已 经 提出 了 很 多 
度 苦 指 标 ,其 中 被 引 频次 是 其 中 最 简单 标准 和 客观 的 
一作 度量 方法 。 陈 仕 吉 等 ” 提 到 ,在 引文 分 析 中 ,被 引 
频次 是 用 于 学 术 影响 力 评价 的 最 具 代 表 性 的 指标 。 对 
文献 被 引 频 次 的 讨论 一 直 备 受 学 术 界 关注 ,研究 人 员 
通过 文献 的 被 引 频 次 大 小 可 以 识别 出 重要 的 学 术 成 
果 ,Google Scholar 在 对 论文 排序 的 时 候 就 把 被 引 频次 
看 作为 权重 最 高 的 因素 ” 。 因 此 ,研究 人 员 往 往 会 关 
注 其 成 果 当 前 及 未 来 的 被 引用 情况 ,关注 影响 成 果 被 
引 的 因素 ,以 期 提升 其 成 果 的 被 引 次 数 。 此 外 , 随 着 科 
学 研究 的 发 展 , 每 年 都 有 大 量 新 的 学 术 成 果 发 表 。 同 
时 ,由 于 学 科 间 的 交叉 融合 日 趋 广泛 和 深入 ,很 多 学 术 


成 果 会 涉及 多 个 研究 领域 ,这 样 ,研究 人 员 很 难 在 有 限 
的 时 间 内 关注 其 研究 领域 内 所 有 出 版 物 的 动态 ,如 果 
能 够 预测 论文 在 未 来 几 年 内 的 被 引 情况 ,从 而 间接 地 
确定 该 论文 是 否 有 价值 , 则 能 够 在 一 定 程度 上 缓解 科 
研 人 员 搜 集 和 处 理论 文 资料 的 压力 ,将 时 间 和 精力 更 
多 地 投入 其 他 的 科研 活动 中 。 另 外 ,科研 管理 部 门 和 
基金 资助 机 构 也 希望 了 解 未 来 哪些 成 果 能 获得 更 多 的 
关注 ,从 而 更 好 地 了 解 学 科 发 展 趋势 ,确定 资助 领域 和 
课题 。 
1.1 问题 定义 

在 此 前 的 一 些 研究 中 ,论文 被 引 预 测 常 被 定义 为 
一 个 回归 问题 。 即 利用 一 篇 论文 的 相关 特征 ,来 
预测 这 篇 论文 在 未 来 某 时 间 点 的 被 引 频次 。 虽 然 这 是 
一 种 理想 的 预测 方式 ,然而 ,在 具体 进行 求解 时 ,为 了 
能 够 得 到 较 好 的 预测 结果 ,此 类 相关 研究 通常 会 对 数 
据 集合 做 出 一 定 的 预 处 理 以 符合 实验 要 求 。X. Shi” 
将 数据 集合 中 引用 次 数 小 于 10 的 论文 全 部 去 掉 ;D. 
Wang 4^" 则 只 使 用 了 在 发 表 前 5 年 内 被 引 频次 超 
过 5 的 论文 作为 实验 数据 ,这 就 导致 实验 数据 与 真实 
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数据 分 布 可 能 不 一 致 的 情况 出 现 ;Y. Dong”! 在 论文 
中 也 指出 ,由 于 论文 引用 具有 明显 的 长 尾 效应 ,因而 论 


的 相关 指标 衔 量 学 者 、 研 究 机 构 或 者 研究 成 果 在 某 一 
领域 的 地 位 。E.，Garfield ”提出 基于 被 引 频 次 的 影响 


文 的 被 引 预 测 其 实 并 不 适合 采用 回归 的 方式 ,因而 他 
从 另 一 个 角度 将 被 引 预 测定 义 为 分 类 问题 , 即 只 预测 
某 位 作者 某 篇 文章 在 未 来 某 个 时 间 点 文章 的 被 引 频 次 
是 否 能 超过 作者 的 H 指数 ,如 果 超 过 , 则 说 明 这 篇 文 
章 有 助 于 提升 作者 的 影响 力 ,如 果 没 有 , 则 说 明 这 篇 文 
章 并 没有 提升 作者 的 影响 力 。 将 被 引 频次 预测 从 回归 
问题 转变 成 分 类 问题 以 后 ,由 于 预测 粒度 变 粗 , 就 可 以 
利用 更 加 符合 真实 分 布 的 数据 ,训练 出 的 模型 也 具有 
更 好 的 泛 化 能 力 ,使 得 研究 更 有 现实 价值 。 因 此 ,在 后 
续 的 研究 中 , 越 来 越 多 的 研究 52 -5 将 论文 被 引 预测 
定义 为 分 类 问题 。 

本 综 上 所 述 ,本 研究 将 论文 被 引 频 次 预测 定义 为 一 个 
分 次 预 测 问 题 。 与 Y. Dong 的 研究 “不同 的 是 ,笔者 主 
要 才 忠 的 是 作者 篇 均 被 引 频次 而 不 是 卫 指 数 ,主要 是 因 
为 篇 均 被 引 频次 相 比 H 指数 来 说 更 加 直观 旦 易于 理解 。 


若 所 此 ,本 研究 将 论文 标记 为 两 类 :如 果 一 篇 论文 在 一 


篇 国 被 引 频 次 , 则 可 以 说 明 这 篇 论文 随 着 不 断 被 引用 ， 
对 从 者 影响 力 的 提升 起 到 了 一 定 的 正面 作用 ,标记 为 正 
奖 ; 肥 之 , 则 标记 为 负 类 。 本 研究 的 目的 是 使 用 多 种 分 
类 合法 和 大 量 论文 数据 ,预测 论文 在 发 表 一 段 时 间 后 的 
被 可 频次 能 否 超过 论文 发 表 当年 第 一 作者 的 篇 均 被 引 


M 即 给 定论 文集 合 D, 以 及 发 表 于 时 间 4 的 某 篇 论 
Xs e D 的 一 系列 特征 = (xa ,xo，…,%y)。 本 研究 
的 性 务 是 训练 一 个 分 类 模型 C 来 预测 在 时 间 点 t, Ac 
MOEK d, 的 被 引 频 次 Citationy a, ,能 否 达 到 或 超过 
d, 的 第 一 作者 Author, 在 发 表 当 年 的 平均 被 引 频次 
Citation, mE 如 公式 (1) 所 示 : 


lif Citation diu, At z Citation 


ave , Author. 1g. 
C(d, lx, , At) = 
Oif Citationg. ,. +4: < Citation 


ave ,Authora ,ta, 
公式 (1) 
考虑 到 论文 在 发 表 不 同时 间 后 的 被 引 情况 不 同 ， 
对 发 表 不 同时 间 后 的 论文 被 引进 行 了 预测 , 预测 难度 也 
不 同 ,不 同 的 算法 表现 也 不 同 ,因此 在 本 研究 中 ,将 At 
分 别 设 定 为 1 年 5 年 和 10 年 ,分 别 代表 论文 发 表 初 期 
(发 表 后 不 久 ) ,中 期 (发 表 一 段 时 间 后 ) 和 长 期 (发 表 
很 长 时 间 后 ) ,这 种 选择 时 间 间 隔 的 方式 也 是 在 论文 引 
用 预测 领域 被 广泛 采用 的 。 
1.2 相关 研究 
在 学 术 界 ,人 们 


直 利 用 被 引 频 次 及 由 其 推算 出 


30 


因子 来 衡量 期 刊 的 影响 力 ;J，Hirsch" 则 提出 用 五 指 
数 来 衡量 学 者 的 影响 力 。 近 年 来 , 随 着 机 器 学 习 技 术 
的 广泛 应 用 , 人们 越 来 越 多 地 关注 如 何 更 准确 地 预测 
引用 情况 。M. Callaham 等 ”基于 医学 类 论文 ,将 本 
领域 内 的 一 些 特征 (如 临床 分 类 特征 等 ) 加 入 模型 中 
来 进行 预测 ;A，Livne 等 则 使 用 了 多 个 学 科 的 论文 
数据 ,最 后 发 现 不 同学 科 的 预测 结果 相差 较 大 ,在 计算 
机 科学 .生物 学 化 学 和 医学 等 学 科 的 论文 数据 中 , 预 
测 结果 表现 较 好 ,而 在 工程 .数学 和 物理 论文 数据 中 则 
表现 较 差 ;A，Ibanez ”等 将 待 预测 论文 的 关键 词 与 
高 被 引 论文 的 关键 词 间 的 相关 性 作为 内 容 特征 加 入 到 
预测 模型 中 。 此 外 ,有 研究 将 社会 网 络 关系 加 入 到 预 
测 模型 。D. Walker 等 提出 了 一 种 基于 PageRank 的 
方式 来 预测 论文 被 引 频 次 ; 刘 大 有 - ”考虑 了 论文 作者 
的 权威 值 .引用 者 的 权威 值 .论文 的 发 表 时 间 以 及 论文 
被 引用 的 时 间 ,基于 作者 和 论文 间 的 引用 链接 ,对 论文 
未 来 被 引 频次 排名 和 PageRank 值 进行 了 预测 ;N，Po- 
biedina ^ 将 论文 被 引 数 预测 看 作 是 一 个 链接 预测 问 
题 ,提出 一 种 基于 图 演化 规则 的 特征 GERscore ,并 在 后 
续 实验 中 表明 GERscore 可 以 提升 预测 的 精度 ; 张 美 
平 “ 则 结合 论文 引用 的 时 间 衰 减 特性 ,提出 一 种 基于 
持续 关注 度 衰减 的 重要 论文 预测 算法 ;F. Davletov 
在 论文 被 引 预测 中 ,引入 论文 的 拓扑 属性 (如 网 络 中 心 
BE .接近 中 心 度 ,特征 向 量 中 心 度 等 ) 来 改进 模型 的 预 
测 效 果 。 

另外 , 随 着 学 科 交 又 现象 越 来 越 普遍 ,不 同 研究 领 
域 之 间 论 文 的 被 引 模式 可 能 存在 较 大 的 区 别 。 如 果 直 
接 对 某 个 学 科 的 论文 进行 引文 预测 可 能 会 提高 预测 的 
难度 ,降低 预测 的 准确 性 。 因 此 ,有 研究 人 员 提 出 首先 
对 论文 的 引用 模式 进行 建 模 ,把 待 被 预测 的 论文 归 到 
某 个 引用 模式 中 , 然后 再 预测 论文 的 被 引 频 次 。F. 
Davletov 等 ”构建 了 一 个 论文 的 距离 矩阵 来 表征 不 同 
的 引用 模式 。 然 后 ,他 们 使 用 谱 聚 类 方法 对 所 有 论文 
数据 进行 聚 类 ,随后 再 通过 训练 ,给 每 一 个 类 分 配 一 个 
多 项 式 来 进行 预测 。T. Chakraborty 和 C. T. Li £077 
基于 其 定义 的 一 些 分 类 标准 ,将 论文 分 为 几 个 类 别 , 这 
样 可 以 将 待 预测 论文 分 到 某 一 类 中 后 再 进行 预测 。 
H. Bhat 等 "通过 估计 作者 发 表 成 果 在 学 术 期 刊 上 的 
分 布 , 作 为 作者 研究 领域 分 布 的 近似 ,用 信息 箭 和 JS 
散 度 来 量化 每 一 篇 文章 的 跨 学 科 性 ,并 将 跨 学 科 性 作 
为 一 个 新 的 特征 ,与 一 些 其 他 的 特征 一 起 来 完成 预测 。 
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上 述 研究 中 虽然 使 用 了 各 种 不 同 的 特征 来 进行 预 
测 ,但 是 对 于 在 使 用 的 众多 特征 中 ,哪些 特征 起 到 主要 
作用 ,哪些 特征 起 到 次 要 作用 ,不 同 的 特征 之 间 有 什么 
区 别 等 问题 并 没有 较为 深入 的 探讨 。 另 外 ,在 对 待 引 
用 模式 不 同 的 问题 时 ,当前 不 少 相关 研究 大 多 是 通过 
提前 对 不 同 引用 模式 进行 分 类 来 解决 这 个 问题 ,但 是 
这 种 方式 的 缺点 在 于 ,提前 对 引用 模式 进行 分 类 使 得 
模型 的 通用 性 大 大 降低 ,以 及 他 们 对 引用 模式 的 自 定 
义 分 类 是 否 科学 ,目前 还 尚 无 定论 。 因 此 本 研究 的 创 
新 点 在 于 ,笔者 首先 使 用 多 种 机 器 学 习 算 法 对 论文 未 
来 引用 情况 进行 分 类 预测 ,并 使 用 预测 中 表现 较 好 的 
一 种 算法 ,对 论文 引用 相关 因素 进行 重要 性 排序 ,从 而 
甄别 出 相对 重要 的 因素 ,并 且 在 预测 中 引入 主题 多 样 
性 竺 征 和 研究 方向 属性 来 抓 住 学 科 交 又 导致 的 不 同 引 
用 模式 的 区 别 , 从 而 能 够 构建 一 种 通用 的 适用 于 交叉 
种 的 预测 模型 ,提高 预测 的 准确 性 。 
研究 方法 与 数据 集 
加 论文 未 来 的 被 引 趋势 受到 多 种 因素 的 影响 。 在 不 
司 的 应 用 场景 下 ,影响 因素 的 作用 强度 会 不 尽 相同 。 


类 别 影响 因素 组 合 使 用 时 的 性 能 进行 分 析 , 得 出 不 同 
类 别 因素 对 被 引 预 测 的 影响 ,对 构建 不 同 应 用 环境 下 
的 预测 模型 提供 理论 依据 。 
除了 论文 本 里 以 外 ,作者 和 出 版 物 也 是 论文 撰写 
和 发 表 过 程 中 两 个 重要 的 主体 ,并 且 目 前 已 有 许多 研 
究 人 员 对 被 引 频次 的 影响 因素 进行 了 研究 UU , 影 
响 因素 大 概 可 以 分 为 三 类 :论文 相关 因素 .作者 相关 因 
素 和 出 版 物 相 关 因 素 。 因 此 ,本 研究 也 将 从 作者 、 出 版 
物 和 论文 三 个 方面 构建 影响 因素 ,力求 从 这 三 个 方 
发 现 影响 论文 被 引 趋势 的 特征 。 同 时 ,为 了 能 更 好 地 
反映 当前 学 科研 究 的 跨 学 科 特 点 ,引入 Web of Science 
中 论文 的 研究 方向 属性 特征 来 更 精确 地 预测 论文 的 被 
引 情 况 。 
用 于 本 研究 计算 和 验证 的 数据 集 为 Web of Sci- 
ence 的 Science Citation Index Expanded (SCI-EXPAND- 
ED) 数据 库 中 研究 方向 (研究 方向 是 Web of Science 
下 的 所 有 数据 库 中 的 论文 都 使 用 的 一 套 分 类 属性 ,用 
于 对 多 个 数据 库 中 关于 同一 个 主题 的 文献 进行 识别 、 
检索 和 分 析 ) 为 情报 学 和 图 书馆 学 (Information Science 
& Library Science ) 的 论文 数据 ,数据 包括 论文 的 全 信 


—- 


区 时 ,确定 影响 论文 被 引 频 次 的 因素 及 影响 强度 是 被 
引 预 测 的 核心 问题 。 此 外 ,本 研究 认为 ,影响 因素 的 作 


用 训 是 孤立 的 ,各 种 因素 会 综合 影响 引用 行为 。 准 确 
沽 沪 不 同 因素 组 合作 用 的 效果 对 预测 有 着 重要 意义 。 
为 号 ,本 研究 采用 相关 分 析 与 假设 检验 的 方法 ,首先 对 


条 影响 论文 被 引 次 数 的 因素 进行 分 析 , 从 中 挑选 出 
容 引 文 预测 的 影响 因素 类 别 和 因素 项 ,然后 使 用 机 
器 党 习 算 法 对 论文 未 来 被 引 情况 进行 分 类 预测 ,并 对 
影响 因素 在 预测 中 的 作用 强度 进行 计算 和 检测 ,甄别 
出 影响 作用 强 的 因素 。 考 虑 到 不 同 的 机 器 学 习 方法 对 
影响 因素 作用 强度 检测 效果 不 同 , 故 笔者 采用 在 分 析 
具有 较 好 表现 的 算法 进行 检测 ,以 从 不 同 角 度 和 方 
法 验证 各 种 因素 的 影响 强度 。 对 采用 各 种 算法 时 不 同 


息 ,参考 文献 信息 和 每 年 的 被 引 频次 信息 等 ,时 间 跨 度 
从 1996 年 到 2016 年 。 另 外 ,本 研究 还 从 Journal Cita- 
tion Reports 中 获取 了 与 试验 数据 相关 的 论文 所 属 出 版 
物 信息 。 数 据 经 过 简单 处 理 后 , 共 包 括 38 442 个 作者 
的 37 677 篇 论文 。 

笔者 对 数据 的 来 源 出 版 物 进行 了 统计 ,数据 一 共 
来 源 于 46 个 出 版 物 , 见 表 1。 从 表 1 中 可 以 看 出 ,发 表 
研究 方向 为 情报 学 和 图 书馆 学 的 论文 最 多 的 前 5 名 出 
版 物 分 别 是 :Scientist „Journal of the American Medical In- 


formatics Association , Scientometrics , Journal of the Ameri- 
can Society for Information Science and Technology 和 In- 


formation Processing & Management , 


表 1 数据 来 源 出 版 物 统计 


来 源 出 版 物 名 称 论文 数 (篇 ) 
SCIENTIST 7 588 
JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION 4 503 
SCIENTOMETRICS 3 648 
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY 2 530 
INFORMATION PROCESSING & MANAGEMENT 1 579 
ONLINE INFORMATION REVIEW 1 570 
INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE 1 471 
PROGRAM -ELECTRONIC LIBRARY AND INFORMATION SYSTEMS 1 453 
INFORMATION & MANAGEMENT 1 176 
JOURNAL OF INFORMATION SCIENCE 1 060 
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(BER 1) 
来 源 出 版 物 名 称 论文 数 (篇 ) 
SOCIAL SCIENCE COMPUTER REVIEW 1 022 
TELECOMMUNICATIONS POLICY 933 
EUROPEAN JOURNAL OF INFORMATION SYSTEMS 841 
MIS QUARTERLY 813 
JOURNAL OF MANAGEMENT INFORMATION SYSTEMS TI8 
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE 729 
INFORMATION TECHNOLOGY AND LIBRARIES 675 
JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 659 
JOURNAL OF INFORMATION TECHNOLOGY 612 
ASLIB PROCEEDINGS 609 
JOURNAL OF STRATEGIC INFORMATION SYSTEMS 448 
JOURNAL OF THE ASSOCIATION FOR INFORMATION SYSTEMS 359 
ONLINE & CDROM REVIEW 292 
256 
194 
163 
159 
149 
142 
133 
T 2001; PROCEEDINGS OF THE 64TH ASIST ANNUAL MEETING, VOL 38 , 2001 130 
'ÜGRAM AUTOMATED LIBRARY AND INFORMATION SYSTEMS 120 
7 JOURNAL OF INFORMATION MANAGEMENT 120 
DT BASE FOR ADVANCES IN INFORMATION SYSTEMS 119 
SIST 2003. PROCEEDINGS OF THE 66TH ASIST ANNUAL MEETING, VOL 40, 2003; HUMANIZING INFORMATION TECHNOLOGY; FROM 119 
IDEAS TO BITS AND BACK 
T 2002. PROCEEDINGS OF THE 65TH ASIST ANNUAL MEETING , VOL 39 , 2002 116 
JOURNAL OF INFORMETRICS 104 
"BULLETIN OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE 83 
"Wen. LIBRARIES; PEOPLE, KNOWLEDGE , AND TECHNOLOGY, PROCEEDINGS 75 
CANADIAN JOURNAL OF INFORMATION AND LIBRARY SCIENCE REVUE CANADIENNE DES SCIENCES DE L INFORMATION ET DE BIBLIOTH- 4l 
ECONOMIE 
HUMAN SOCIETY AND THE INTERNET , PROCEEDINGS ; INTERNET-RELATED SOCIO-ECONOMIC ISSUES 36 
RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES , PROCEEDINGS 26 
INFORMATION SYSTEMS JOURNAL 25 
VISUAL INTERFACES TO DIGITAL LIBRARIES 17 
HYDRODYNAMIC LIMITS OF THE BOLTZMANN EQUATION 1 
BEST PRACTICE GUIDELINES ON PUBLISHING ETHICS ; A PUBLISHER’ S PERSPECTIVE , 2ND EDITION 1 
A 37 671 


此 外 ,研究 方向 为 情报 学 和 图 书馆 学 的 论文 数据 ”论文 的 被 引用 次 数 集中 在 0\1 等 较 低 的 频次 上 。 这 也 


体现 了 当前 多 学 科 之 间 交 又 的 研究 趋势 。 本 研究 对 其 。 进一步 说 明 对 其 进行 引用 预测 并 不 适合 采 上 月 


中 论文 的 被 引 频 次 进行 了 统计 ,将 被 引 频 次 和 计数 分 。 法 ,而 更 适合 采用 分 类 的 方式 。 


日 回归 的 方 


别 取 对 数 函 数 作为 X 轴 和 了 轴 , 见 图 1( 因 许多 论文 被 g 响 因素 选择 

引 频 次 为 0, 无 法 取 对 数 ,所 以 将 所 有 被 引 频次 加 0. 01 ai 

S EA ET A A 确定 影响 被 引 频 次 因素 是 进行 预测 的 基础 。 可 以 
被 引 频 次 和 其 他 很 多 学 科 一 样 也 存在 长 尼 现 象 ,大 量 。 “认为 ,论文 的 内 容 是 影响 其 被 引 次 数 的 重要 因素 ,而 出 
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耿 害 ， 景 然 ， 靳 健 ， 等 . 学 术 论文 引用 预测 及 影响 因素 分 析 [J]. 图 书 情报 工作 ,2018 ,62 (14) :29 - 40. 
1 版 物 和 作者 的 一 些 特征 也 在 一 定 程度 上 影响 着 论文 的 
| 被 引 次 数 , 比如 在 业内 具有 高 知名 度 的 作者 的 论文 往 
" 往 更 容易 被 阅读 和 引用 。 笔 者 基于 本 研究 的 数据 集 ， 
B o ne 提取 了 能 获取 到 的 一 些 可 能 影响 论文 被 引 次 数 的 影响 
3 因素 ,将 影响 因素 按照 其 主体 分 为 出 版 物 , 作 者 和 论文 
E 三 大 类 ,使 用 本 文 数据 集中 的 数据 ,将 这 些 影响 因素 进 
2] € 行 计算 和 统计 ,从 而 为 后 面 的 预测 模型 构建 和 影响 因 
中 pei 素 重要 性 排序 打下 基础 。 表 2 中 列 出 了 本 文中 所 使 用 
ee 的 所 有 影响 因素 名 称 ,来 源 及 其 计算 和 统计 的 方式 。 
2.1 出 版 物 相关 的 影响 因素 
人 本 研究 认为 ,出 版 物 的 质量 .水 平和 学 术 影 响 力 对 
R2 全 部 影响 因素 
类 别 影响 因素 名 影响 因素 来 源 与 计算 统计 方式 
重重 版 物 相 关 总 被 引 数 来 源 于 JCR 核心 指标 ,实验 中 使 用 的 数据 均 为 论文 出 版 年 时 出 版 物 的 指标 数据 。 如 果 个 别 年 份 的 核 
DENAR 影响 因子 心 指标 数据 缺失 , 则 将 其 余年 份 数据 取 平 均值 对 缺失 值 进行 填补 ;如 果 出 版 物 在 JCR 中 没有 被 收录 
y= » 则 取 其 余 所 有 被 收录 的 出 版 物 的 核心 指标 数据 的 平均 值 对 缺失 值 进 行 填补 。 
CD 排除 自 引 后 的 影响 因子 
O 五 年 影响 因子 
e 即时 指数 
e 可 被 引 项 目 数 
co DOE 
B 引用 半衰期 
N 特征 因子 值 
e 论文 影响 力 值 
N 可 引用 项 目 比 
标准 化 特征 因子 
平均 影响 因子 百 分 位 
请 相关 影响 因素 一 作者 的 社会 性 建立 论文 的 合作 网 络 ,使 用 公式 (2) 计 算出 第 一 作者 在 论文 出 版 年 时 的 社会 性 


第 
第 一 作者 的 H 指数 


统计 出 在 数据 集中 
ESI 


7 


,论文 第 一 作者 在 论文 出 版 年 之 前 发 表 的 所 有 论文 ，; 
排序 ,然后 根据 互 指 数 的 计算 规则 ,计算 出 在 论文 


符 这 些 论 文 按照 被 引 频次 从 大 
版 年 时 该 作者 的 H 指数 


第 一 作者 的 论文 总 数 


chináXiv 


统计 出 在 数据 集中 ,论文 第 一 作者 在 论文 


出 版 年 之 前 发 表 的 所 有 论文 的 数量 


第 一 作者 的 过 去 最 大 被 引 数 


统计 出 在 数据 集中 ,论文 第 一 作者 在 论文 出 版 


Hr 


FE 之 前 发 表 的 所 有 论文 中 ,被 引 最 多 的 论文 的 被 引 频 次 


第 一 作者 的 篇 均 被 引 次 数 统计 出 在 数据 集中 ,论文 第 一 作者 在 论文 出 版 年 之 前 发 表 的 所 有 论文 ,将 这 些 论文 在 论文 出 版 年 之 前 
的 被 引 频次 相 加 ,再 除 以 论文 总 数 ,得 出 篇 均 被 引 次 数 
论文 相关 影响 因素 论文 的 主题 多 样 性 使 用 LDA 计算 出 每 篇 论文 的 主题 分 布 ,然后 使 用 公式 (4) 计 算出 论文 的 主题 多 样 性 
论文 的 页 数 来 源 于 Web of Science 中 论文 的 元 数据 
论文 参考 文献 的 数量 来 源 于 Web of Science 中 论文 的 元 数据 
论文 的 研究 方向 来 源 于 Web of Science 中 论文 的 元 数据 
论文 的 使 用 次 数 来 源 于 Web of Science 中 论文 的 元 数据 


出 版 物 中 所 发 表 的 论文 的 被 引 频 次 具有 影响 作用 。 出 
版 物 本 映 也 具有 一 些 与 被 引 相 关 的 量化 指标 ,包括 总 
被 引 数 .影响 因子 .排除 自 引 后 的 影响 因子 五 年 影响 
因子 .即时 指数 可 被 引 的 文章 数 .被 引 半 衰 期 .引用 半 
TEH 特征 因子 值 ,论文 影响 值 被 引用 的 论文 数量 比 、 
标准 化 特征 因子 和 平均 影响 因子 百 分 位 等 。 出 版 物 相 
关 的 特征 主要 来 源 于 Journal Citation Reports ,本 人 研究 统 
计 出 数据 集中 所 有 论文 的 来 源 出 版 物 ,然后 在 Journal 


Citation Reports 中 可 获得 出 版 物 的 核心 指标 。 
2.2 作者 相关 的 影响 因素 

作者 自身 的 属性 (如 学 术 水 平 .学 术 影 响 力 等 ) 和 
其 论文 被 引 有 着 重要 的 相关 关系 。 在 文献 计量 中 ,长 
期 以 来 对 作者 的 各 种 属性 具有 和 较为 全 面 的 研究 和 指 
标 。 本 研究 尽 可 能 全 面 地 使 用 已 有 的 相关 指标 作为 其 
论文 被 引 的 影响 因素 ,包括 作者 的 互 指数 ,平均 被 引 
次 数 已 发 表 的 论文 数 、 社 会 性 和 过 去 最 大 被 引 次 数 。 
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C hinaAIv = HH i 


| 
-AH T 


Jtr, H HEREN EE REED (E e dee X PCR 
响 力 ,平均 被 引 次 数 则 为 作者 的 总 被 引 次 数 除 以 作者 
已 发 表 的 所 有 论文 数 。 

作者 的 社会 性 与 其 影响 力 和 被 知晓 程度 具有 一 定 
的 相关 性 ,因此 也 和 其 论文 被 引 具 有 一 定 的 相关 性 。 
作者 的 社会 性 越 强 , 其 合 著者 也 就 越 多 ,其 论文 被 引 的 
机 会 也 就 越 大 。 苏 芳 荔 "发 现 合作 发 表 论 文 的 影响 
力 明显 高 于 独立 (无 合作 ) 发 表 的 论文 。 社 会 性 的 计 
算 方法 为 :建立 一 个 合作 关系 网 络 C(4,Co) ,4 是 点 
集 ,4 中 的 每 一 个 点 a, 代表 一 个 作者 。Co 是 边 集 , Co 
中 的 每 一 条 边 co 代表 作者 之 间 的 合作 关系 , 边 的 权重 
通过 合作 的 论文 数 来 计算 。 对 边 的 权重 进行 归 一 化 可 
得 到 o 和 a 之 间 的 转移 概率 M,,, 组 成 转移 概率 矩阵 
Me 因此 ,一 个 作者 a, 的 社会 性 S Ca.) 可 通过 与 其 相 
连 秽 所 有 其 他 作者 推导 出 来 中 ,用 公式 (2) 表 示 为 : 


Ld AS) 


> -S(a,) -dYS(a,) "MCA 


论文 相关 的 影响 因素 

GO 论文 本 身 的 因素 显然 应 该 与 论文 未 来 的 被 引 情况 
直接 相关 。 但 是 如 前 所 述 ,由 于 通过 论文 内 容 进行 关 
上 光 困难 性 ,所 以 当前 的 研究 都 是 通过 论文 的 一 些 方 
便 蓝 得 的 形式 化 特征 进行 推断 。 

SN 本 研究 选取 的 影响 因素 包括 论文 的 主题 多 样 性 、 
Toe . 参 考 文献 数量 ,研究 方向 属性 和 使 用 次 数 。 笔 者 
DÉ ,论文 的 页 数 . 参 考 文献 数量 越 多 ,其 内 容 也 就 越 
可 能 翔实 ,研究 的 描述 也 就 越 可 能 细致 。 此 外 ,论文 的 
研究 方向 属性 越 多 ,说 明 论文 涉及 到 的 研究 方向 越 多 ， 
最 隔 面 就 可 能 越 广 , 则 被 引用 的 可 能 性 就 越 大 。 在 本 
文 使 用 的 数据 集 标注 了 12 种 研究 方向 属性 ,包括 计算 
机 科学 ,情报 学 与 图 书馆 学 、 商 学 与 经 济 学 .保健 科学 
与 服务 .医学 信息 学 .地 理学 、 自 然 地 理学 .社会 科学 - 
其 他 ,通讯 .社会 问题 电信、 科学 与 技术 - 其他。 论文 
的 使 用 次 数 可 以 衡量 用 户 对 于 Web of Science 平台 上 
一 个 特定 项 目的 关注 程度 ,该 计数 反映 某 篇 论文 满足 
用 户 信息 需要 的 次 数 ,具体 表现 为 用 户 点 击 了 指向 出 
版 商 处 全 文 的 链接 (通过 直接 链接 或 Open URL) ,或 是 
对 论文 进行 了 保存 以 便 在 题 录 管理 工具 中 使 用 ( 通过 
直接 导出 或 保存 为 之 后 可 以 重新 导入 的 其 他 格式 ) 。 
论文 的 使 用 次 数 越 多 ,说 明 论文 受到 的 关注 越 多 ,被 引 
用 的 可 能 性 也 就 越 大 。 主 题 (topic) 可 以 理解 为 特定 语 
料 集合 下 语义 的 高 度 抽 象 和 压缩 的 表示 ,每 一 维 主题 
都 对 应 一 个 比较 一 致 的 语义 。 因 此 ,一 篇 论文 的 主题 
多 样 性 就 可 以 在 一 定 程度 下 表征 该 论文 研究 的 多 样 性 
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程度 。 笔 者 利用 主题 模型 中 的 代表 模型 隐 狄 利克 雷 分 
布 (Latent Dirichlet Allocation, LDA ) 来 计算 论文 的 主题 
分 布 。 在 LDA 中 ,主题 被 表示 成 了 个 多 项 式 分 布 , 则 文 
档 d 中 所 有 主题 的 主题 分 布 7(d) 用 公式 (3) 表 示 为 : 

T(d) = ip(topic, |d) ,p(topic, d) --p(topic,d) | 

公式 (3) 

如 果 一 篇 文章 的 主题 具有 和 多样 性 ,那么 这 篇 论文 
可 能 被 不 同 研究 领域 的 学 者 引用 ,因此 被 引 频 次 可 能 
会 更 高 。 本 人 研究 使 用 信息 粹 Dd) 表示 论文 4 的 主题 
多 样 性 ” ,如 公式 (4) 所 示 : 

D(d) -5 -p(topic;ld) ,logp(iopic 1d) 公式 (4) 

由 公式 (4) 可 知 , 当 一 篇 论文 的 研究 领域 较为 单 
一 时 , 则 该 论文 只 在 某 几 个 主题 上 有 较 高 的 概率 分 布 ， 
其 多 样 性 取 值 较 小 。 当 一 篇 论文 涉及 多 个 研究 领域 
时 , 则 这 篇 论文 的 主题 分 布 更 为 均衡 ,多 样 性 取 值 也 会 
相对 较 大 。 


3 ”算法 选择 与 模型 建立 
3.1 ”预测 算法 选择 
本 研究 对 论文 引用 进行 预测 的 目的 是 ,将 论文 引用 


预测 问题 定义 为 一 个 分 类 问题 ,通过 数据 集训 练 ,发 现 
使 用 出 版 物 \ 作 者 、 论 文 相关 影响 因素 是 否 能 有 效 地 预 
测 出 论文 在 未 来 的 被 引 频 次 是 否 能 超过 论文 发 表 当 年 
第 一 作者 的 篇 均 被 引 次 数 。 在 分 类 预测 方面 ,有 较 多 可 
供 选 择 的 方法 ,本 研究 选择 了 朴素 贝 叶 斯 (Naive Bayes- 
ian Model , NB) .逻辑 回归 (Logistic Regression, LR) .支持 
[E] & BL ( Support Vector Machine, SVM ) ,梯度 提升 决策 树 
( Gradient Boosting Decision Tree, GBDT ) , XGBoost ( eX- 


Z 
= 


nu 


treme Gradient Boosting) ,AdaBoost( Adaptive Boosting ) 和 
随机 森林 (Random Forest, RF)7 种 算法 。 使 用 这 些 算法 
来 进行 预测 的 原因 是 ,朴素 贝 叶 斯 ,逻辑 回归 和 支持 向 
量 机 是 三 种 经 典 的 分 类 算法 ,并 且 已 经 在 不 同 的 数据 集 
合 中 证 明 其 有 效 性 ,而 GBDT | XGBoost , AdaBoost 和 随机 
森林 都 属于 效果 较为 优异 的 集成 学 习 算 法 ,特别 是 GB- 
DT XGBoost .AdaBoost 等 集成 学 习 算 法 由 于 其 出 色 的 泛 
化 能 力 在 近 几 年 被 广泛 应 用 于 学 术 研 究 和 实际 工作 中 。 
3.2. 评测 指标 选择 
本 研究 使 用 分 类 器 性 能 评价 常用 的 指标 ROC 
( Receiver Operating Characteristic. Curve ) 曲线 下 面积 
( Area Under Curve, AUC) 和 Fl 值 来 进行 评测 ,这 两 个 
间 标 也 常常 被 论文 引用 分 类 预测 领域 用 来 对 预测 效果 
进行 评测 所 ”1 。 要 计算 AUC RI FI 值 , 首 先 需要 对 
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一 些 指标 进行 定义 ,如 果实 际 值 属于 正 类 ,预测 值 也 为 
正 类 , 则 标记 为 TP; 如 果实 际 值 属于 正 类 ,预测 值 为 负 
类 , 则 标记 为 FN; 如 果实 际 值 为 负 类 ,预测 值 为 正 类 ， 
则 标记 为 站; 如果 实际 值 为 负 类 , 预测 值 也 为 负 类 , 则 
标记 为 TN ,如 表 3 所 示 : 

RI 分 类 结果 的 混淆 矩阵 


DN : 
KERR F i 
na TP FN 
f FP TN 


(1) AUC, AUC 和 ROC 常 被 用 来 评价 一 个 二 分 类 
器 的 分 类 性 能 ,AUC 值 越 大 ,说 明 分 类 器 的 效果 越 好 。 
ROC 曲线 坐标 轴 的 横 坐 标 叫做 “ 假 正 例 率 ” ,用 符号 表 
示 为 FPR, 纵 坐标 叫做 “真正 例 率 ” ,用 符号 表示 为 
TER, FPR 和 TPR 的 计算 方法 如 下 所 示 : 


FP 
公式 
AR e») 

TP 
CINE: NN PASS 
R= pP 公式 (6 ) 


O 


一 (2) Fl 值 。F1 值 是 准确 率 (precision) 和 召回 率 
CO 
CESI) 的 调和 均值 。 准 确 率 是 预测 出 的 正 样本 中 , 真 


天 则 为 正 样 本 的 比例 。 准 确 率 和 召回 率 越 高 ,说 明 模 
就 果 越 好 。 但 是 准确 率 和 召回 率 常 常 是 相互 制约 
的 = 因此 F1 值 用 来 对 准确 率 和 召回 率 进行 加 权 调 和 ， 
其 从 式 如 下 所 示 : 

F1 fii _2 * precision * recall 


公式 (7) 


c precision + recall 
EET TS ESCEU 

O1) 主题 多 样 性 计算 。 首 先 利用 NLTK ( Natural 
Language Toolkit) 对 数据 集中 论文 的 题名 和 摘要 进行 
分 词 和 词性 标注 。NLTK 是 Python 环境 中 用 于 自然 语 
言 处 理 的 工具 包 。 本 研究 仅 保留 名 词性 短语 和 形容 词 
性 短语 ,并 利用 混杂 度 作为 选取 主题 数 的 准则 , 超 参数 
a 设置 为 0.01,6 设置 为 50/( 为 主题 个 数 ) ,得 到 每 
一 篇 论文 的 主题 分 布 7(d) 。 根 据 公式 (4) ,计算 每 一 


(2) 作 者 社会 性 计算 。 建 立 合作 关系 网 络 GA, 
Co) ,参数 d 取 0.85。 使 用 公式 (2) 计 算出 作者 的 社会 
性 S(a)。 

(3) 对 离散 型 变量 进行 one-hot 编码 。 对 每 一 篇 论 
文 的 研究 方向 属性 进行 one -hot 编码 ,因为 数据 集中 共 
有 12 种 研究 方向 属性 ,因此 将 每 一 篇 论文 的 研究 方向 
属性 转换 为 一 个 12 维 的 二 进 制 向 量 。 论 文 属于 哪个 
研究 方向 属性 ,就 将 该 研究 方向 属性 对 应 的 维度 标记 
为 1, 其 余 标 记 为 0。 

(4) 计 算 和 统计 其 他 影响 因素 。 对 除了 主题 多 样 
性 ,作者 社会 性 .研究 方向 属性 以 外 的 因素 进行 计算 和 
统计 ,比如 作者 的 也 指数 .平均 被 引 次 数 . 已 发 表 的 论 
文 数 和 过 去 最 大 被 引 次 数 等 ,这 些 影 响 因素 的 计算 和 
统计 都 是 基于 本 文中 所 采用 的 数据 集 。 

3.4 数据 预 处理 

(1) 数 据 标注 。 基 于 本 文 的 问题 定义 , 设 定 At 分 
别 为 1 年 5 年 和 10 年 ,把 论文 在 出 版 At 后 的 真实 被 
引 频 次 Citation, a, ya 与 第 一 作者 Author, 在 出 版 当年 
的 篇 均 被 引 频次 Citations, Auhorg ,i 相 比 较 。 如 果 被 引 
频次 大 于 作者 在 出 版 当年 的 篇 均 被 引 频 次 , 则 认为 此 
论文 对 提升 作者 的 影响 力 起 正面 作用 ,标注 为 正 类 ,如 
果 被 引 频 次 小 于 作者 在 出 版 当年 的 平均 被 引 频 次 , 则 
认为 此 论文 没有 起 到 提升 作者 影响 力 的 作用 ,标注 为 
负 类 。 

(2) 归 一 化 影响 因素 。 将 抽取 出 来 的 所 有 影响 因 
素 进 行 归 一 化 处 理 ,把 每 一 维度 的 原始 数据 都 等 比例 
缩放 到 [0,1] 范 围 内 。 归 一 化 公式 为 :已 = 


Les gr X, OS foe ds X 为 原始 数据 ， 


X nas Xu 
X na PU X min TAIN RR E 88 P EAE eME o 
3.5 预测 建 模 

将 70% 的 数据 作为 训练 集 ,30% 的 数据 作为 测试 
4E ,分 别 使 用 所 有 影响 因素 . 单 类 影响 因素 和 两 两 组 合 
影响 因素 ,使 用 上 文 所 述 7 种 方法 来 建立 预测 建 模 。 
模型 的 训练 过 程 如 图 2 所 示 : 


篇 论文 的 主题 多 样 性 D(d) 。 
3E E [8] UH 
— 影响 因素 上 AE uen 
70% uem 抽取 支持 向 量 机 
数据 集 。 L—- 训练 集 I— 分 类 算法 GBDT 
-| EXT AdaBoost 
em ae 各 
30% 建立 随机 森林 
抽取 
测试 集 ”| ”影响 因素 - 预测 类 别 F 
一 >| AUC f F1 值 
进行 评测 
”| ”真实 类 别 


图 2 模型 训练 过 程 
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首先 抽取 数据 集中 的 影响 因素 ,将 数据 类 别 进行 
标注 ,其 中 的 70% 数据 作为 训练 集 ,30% 数据 作为 测 
试 集 ;然后 将 训练 集中 的 影响 因素 和 类 别 使 用 分 类 算 
法 进行 训练 建立 分 类 模型 ,然后 将 测试 集中 的 影响 因 
素 输入 分 类 模型 ,分 类 模型 输出 其 预测 的 类 别 。 这 里 
选择 其 中 一 种 分 类 算法 GBDT 来 介绍 模型 的 训练 过 
程 ,其 流程 如 图 3 所 示 : 


弱 分 类 器 1 L— 学习 | 片 权重 1 
4 —————À 
数据 i aok žy e RE 总 分 类 器 


弱 分 类 器 n 一 — 学 习 一 > 权重 n 


3 GBDT 训练 过 程 


二 GBDT 38 1:3 45 36 35 (V, 8$— $638 IN ^E — 1 58 

分 类 器 (一 般 使 用 CART 作为 弱 分 类 器 ) ,使 用 上 一 个 
弱 分 类 絮 的 残 差 训 练 出 下 一 个 弱 分 类 器 ,最 后 将 每 一 
轮 灸 代 产生 的 弱 分 类 器 加 权 求 和 ,得 到 总 分 类 器 。 
C 本 人 研究 使 用 python 的 scikit-leam 训练 GBDT , sci- 
kitdeam 封装 了 GBDT 的 类 库 ,其 中 GradientBoosting- 
CRassifier 是 用 于 分 类 的 类 , GradientBoostingClassifier 的 
佐 烙 分 为 两 类 :一 类 是 Boosting 框架 的 参数 , 另 一 类 是 
88572] 88 (030. 

n \ Boosting 框架 的 重要 参数 包括 :QDn_estimators, 设 
置 子 弱 学 习 器 的 最 大 迭代 次 数 ,也 就 是 弱 学习 器 的 最 
j 数 ,该 参数 太 大 模型 会 过 拟 合 , 太 小 则 会 欠 拟 合 ， 
默 次 是 100;G@)eaming_rale, 设 置 的 是 每 个 弱 学 习 器 的 
步 奖 ,默认 是 1 , 步 长 越 小 ,迭代 次 数 就 越 多 ,因此 nes- 
tintators 和 learning. rate 常常 一 起 调整 ;@)1oss ,也 就 是 
损失 函数 ,分 类 模型 有 两 种 损失 函数 ,对 数 似 然 损失 函 
数 “deviance” 和 指数 损失 函数 “exponential”,GBDT 使 
用 的 是 对 数 似 然 损 失 函 数 “deviance”。 

弱 学 习 髓 的 重要 参数 包括 :max_features :表示 在 
划分 的 时 候 考 虑 的 最 大 特征 数 ,如 果 特 征 较 多 , 则 需要 
设置 该 参数 ,以 减少 训练 时 间 , 默 认 值 是 "None”; @ 
max_depth :表示 作为 弱 分 类 器 的 决策 树 的 最 大 深度 ， 
Ej max. features 类 似 , 如 果 特 征 较 多 , 则 需要 降低 最 大 
深度 以 减少 训练 时 间 , 上 默认 不 输入 ; Omin _samples _ 
split :表示 内 部 节点 再 划分 所 需要 的 最 小 样本 数 , 默 认 
值 为 2, 如 果 某 节点 的 样本 数 少 于 该 参数 设置 的 数 , 则 
不 再 进行 划分 ;min_samples_leaf: 叶 子 节点 最 少 样本 
数 , 如 果 某 叶子 节点 的 数目 小 于 这 个 参数 设置 的 数字 ， 
则 会 和 兄弟 节点 一 起 被 剪 枝 ,默认 值 为 1。 

最 后 ,将 分 类 模型 预测 出 的 类 别 与 真实 类 别 进行 
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比较 ,计算 出 模型 的 AUC 和 Fl 值 ,对 模型 的 效果 进行 
评价 。 


4 实验 结果 与 分 析 
4.1 论文 引用 预测 


4.1.1 使 用 所 有 影响 因素 时 的 算法 比较 首先 使 用 
所 有 影响 因素 和 不 同 算法 进行 实验 ,将 7 种 算法 实验 
结果 的 AUC 和 F1 值 在 柱状 图 中 呈现 。 其 中 ,X 轴 是 


At, At e 11 年 ,5 年 ,10 年 | , Y 轴 是 评测 指标 的 大 小 ,分 
别 如 图 4 和 图 5 所 示 : 
At 取 不 同 值 时 ， 不 同 模型 的 AUC 
Js 3 JE 
08 - EF] M 口 
Pn ^H MI 
* J . | Li 应 } 
0.6 eH Toi LI* 
M .| " | 
名 '» | p ja 
B Paar . s| H] 
= [kd 二 dia 
0.4 {|x . EN CBDT 
AA t EE) XGBoost 
j lul [5 C AdaBoost 
|a j E [73 SVM 
g kd (d CD LR 
* i E—3 RF 
Hu I2 laa NB 
0.0 ha LL. LIII 
1 5 10 
At 
图 4 At 取 不 同 值 时 ,不 同 模型 的 AUC 
At 取 不 同 值 时 ， 不 同 模型 的 Fl score 
1.0 
0.8 4 1 H 
^ ji 
v 06 T A | , 
y ES 
E | A Lk 
04 EN CBDT 
hi EX] XGBoost 
A C AdaBoost 
024 | z= SVM 
P T 1 


0.0 


At 


图 5 At 取 不 同 值 时 ,不 同 模型 的 Fl f 


从 图 中 可 以 看 出 ,在 4 分别 为 1 年 .5 年 和 10 年 
时 ,GBDT、XGBoost 和 随机 森林 在 AUC FU F1 值 指 标 上 
取得 了 最 好 的 结果 。 其 中 ,XGBoost 和 随机 森林 在 Fl 
值 和 AUC 上 分 别 达 到 了 0.85 和 0.96 以 上 的 分 数 。 该 
结果 证 明 当 前 的 影响 因素 选择 方式 和 算法 选择 对 于 论 
文 被 引 预 测 是 有 效 的 ,也 证 明 集成 学 习 算法 适用 于 论 
文 引用 预测 这 一 领域 。 


JOE, XR, 新 健 , 等 . 学 术 论文 引用 预测 及 影响 因素 分 析 []]. 图 书 情报 工作 ,2018 ,62(14) :29 - 40. 


4.1.2 不 同类 别 影响 因素 对 预测 的 影响 为 了 进 一 
步 检 验 作者 、 出 版 物 和 论文 三 个 类 别 的 影响 因素 在 预 
测 中 的 作用 ,本 研究 又 分 别 对 这 三 类 影响 因素 单独 进 
行 了 试验 。 然 后 ,将 这 三 类 影响 因素 两 两 组 合 进行 斌 
验 ,分 别 考察 不 同情 况 下 的 表现 。 考 虑 到 当前 预测 10 
FE 的 效果 最 好 ,因此 只 选择 时 间 间 隔 为 10 年 。 选 择 表 
现 最 好 的 三 个 算法 GBDT .XGBoost 和 随机 森林 进行 斌 
验 ,结果 如 图 6 - 图 9 B 
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) 图 6 使 用 单 类 影响 因素 时 ,不 同 模型 的 AUC 
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图 7 使 用 单 类 影响 因素 时 ,不 同 模型 的 FI 
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从 结果 中 可 以 看 出 ,单独 使 用 某 一 类 影响 因素 
的 效果 都 要 逊色 于 使 用 全 部 影响 因素 的 效果 。 其 
中 ,只 利用 论文 相关 影响 因素 的 效果 要 略 好 于 其 他 
两 类 影响 因素 ,而 影响 因素 两 两 组 合 后 的 效果 要 优 
于 只 采用 单一 某 类 影响 因素 ,但 是 仍然 逊色 于 使 用 
全 部 影响 因素 的 预测 效果 。 其 中 ， 作 者 + 论文 "的 
影响 因素 组 合 是 两 两 组 合 中 效果 最 好 的 。 综 上 结 
果 可 以 看 出 任 一 类 下 的 影响 因素 或 者 影响 因素 的 
两 两 组 合 效 果 都 不 如 全 特征 下 的 效果 好 。 即 在 本 
数据 展开 的 预测 中 ,利用 的 特征 越 多 ,预测 也 就 越 
准确 。 


AUC 


0.0 — zm m 
作者 特征 + 期刊 特征 论文 特征 + 期 刊 特征 论文 特征 + 作者 特征 ”类别 
图 8 影响 因素 两 两 组 合 时 ,不 同 模型 的 AUC 
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^ E 者 特征 + 期 刊 特征 ”论文 特征 + 期 刊 特征 论文 特征 + 作者 特征 ”类别 
9 影响 因素 两 两 组 合 时 ,不 同 模型 的 Fl 
42 ”影响 因素 重要 性 排序 
在 进行 了 论文 引用 预测 后 ,本 研究 使 用 了 梯度 提 
升 决策 树 ( Gradient Boosting Decision Tree, GBDT) 对 影 
响 因素 的 重要 性 进行 了 排序 。CBDT 是 由 多 棵 决策 树 
先 代 组 成 ,每 一 颗 树 适 代 的 过 程 中 都 会 做 特征 选择 , 通 
过 特定 的 衡量 指标 ,从 候选 特征 中 选择 一 个 特征 及 相 
应 的 分 裂 值 ,特征 所 处 的 树 层次 越 接近 根 节点 ,分 裂 次 
数 越 多 ,特征 就 越 重要 ,特征 j 的 重要 性 计算 方法 为 由 
J. H. Friedman ^ 提出 ,计算 公式 如 下 所 示 : 
PCT) = iQ =j) 公式 (8 ) 
中 , 树 了 有 J 个 叶子 节点 , 则 非 叶 子 节点 有 1 
so, 是 跟 节 点 + 相关 的 分 裂 特 征 ,六 是 对 应 节点 1 分 
裂 后 减少 的 平方 损失 。 而 对 于 包含 了 MM 棵 树 的 森林 
LT, LT 来 说 ,特征 j 的 全 局 重要 性 可 以 通过 其 在 所 有 
树 上 的 重要 性 平均 值 推导 出 来 ,计算 公式 如 下 所 示 : 


js 1 £4. x, 
er 公式 (9) 


在 本 实验 中 ,可 以 利用 GBDT 输出 所 有 影响 因素 
的 重要 性 分 布 , 表 4 列 出 了 在 时 间 间 隔 取 不 同 的 值 时 ， 
排名 前 10 位 的 影响 因素 的 重要 性 。 


T 
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表 4 影响 因素 重要 性 TOP10 
时 间 间 隔 A =1 pu PEST 
排名 影响 因素 重要 性 影响 因素 重要 性 影响 因素 重要 性 
i 第 一 作者 的 平均 被 引 数 0.328 2 论文 的 使 用 次 数 0.260 8 论文 的 使 用 次 数 0.241 
E 论文 的 使 用 次 数 0. 161 5 第 一 作者 的 平均 被 引 数 0.253 论文 页 数 (osos 
3 第 一 作者 的 最 大 被 引 数 0.112 1 参考 文献 数量 0.1328 第 一 作者 的 平均 被 引 数 M 
j PARRE Parei, 论文 页 数 0.108 9 参考 文献 数量 0.134 5 
3 总 被 引 数 0.048 48 第 一 作者 的 最 大 被 引 数 0.107 6 第 一 作者 的 最 大 被 引 数 NES 
a 即时 指数 0.035 53 论文 的 主题 多 样 性 0.019 98 第 一 作者 的 论文 总 数 -— 
7 排除 自 引 后 的 影响 因子 0.034 5 总 被 引 数 0.018 89 论文 的 主题 多 样 性 actis 
$ 论文 页 数 0.029 53 排除 自 引 后 的 影响 因子 。 0.016 77 总 被 引 数 wod 
9 第 一 作者 的 论文 总 数 0.025 99 第 一 作者 的 论文 总 数 0.010 26 被 引 半 衰 期 0.012 65 
论文 的 主题 多 样 性 0.018 59 即时 指数 0.010 08 。 排除 自 引 后 的 影响 因子 0.012 58 
从 表 4 中 可 以 看 出 ,在 时 间 间隔 分 别 取 1.5 和 10 ”的 平均 被 引 次 数 和 第 一 作者 的 最 大 被 引 次 数 。 一 般 而 


饲 时 ,论文 相关 的 影响 因素 和 出 版 物 相关 的 影响 因素 
在 EBDT 的 训练 中 都 起 到 了 较为 重要 的 作用 。 其 中 论 
诡 相 关 的 影响 因素 中 ,论文 的 使 用 次 数 和 参考 文献 数 
其 例 三 个 时 间 间 隔 中 都 排 在 了 较 前 的 位 置 ,这 表明 论 
文秀 浏览 下 载 的 次 数 越 多 , 越 有 可 能 被 引用 ,论文 的 参 
产 光 南越 丰富 ,论文 可 能 前 期 的 调研 工作 越 扎实 。 另 
托 在 作者 相关 的 影响 因素 中 排名 靠 前 的 是 第 一 作者 


言 第 一 作者 是 论文 的 撰写 者 ,是 直接 决定 论文 内 容 的 
人 ,因此 第 一 作者 自身 的 学 术 水 平 会 较 大 地 影响 论文 
是 否 会 被 潜在 的 引用 。 

在 对 所 有 影响 因素 进行 了 重要 性 排序 后 ,本 研究 
利用 GBDT 分 析 了 使 用 单 类 影响 因素 时 的 重要 性 , 表 
5 列 出 了 使 用 单 类 影响 因素 时 输出 重要 性 前 5 位 的 影 
HAR o 


R5 单 类 影响 因素 重要 性 排序 TOPS 
单 类 影响 因素 重要 性 TOPS 
出 版 物 影响 因素 a mass 
总 被 引 数 0.2546 沦 文 页 数 0.4222 第 一 作者 的 平均 被 引 数 in 
— 影响 因子 0.1555 论文 使 用 次 数 0.3046 第 一 作者 的 最 大 被 引 数 0:2816 
即时 指数 0.135 1 参考 文献 数量 0.168 2 第 一 作者 的 社会 性 di 
c 引用 半衰期 0.101 5 论文 的 主题 多 样 性 0.051 59 第 一 作者 的 论文 总 数 cd 
' 三 排除 自 引 后 的 影响 因子 0.085 8 论文 的 研究 方向 0. 008 749 第 一 作者 的 了 指数 0.034 2 


二 另外 ,从 特征 重要 性 表 中 可 以 发 现 ,单一 大 类 影响 
因素 与 全 部 影响 因素 下 的 特征 排序 大 致 是 相同 的 。 比 
如 在 单一 大 类 影响 因素 中 ,在 论文 相关 影响 因素 中 排 
名 第 二 位 的 论文 使 用 次 数 和 排名 第 三 位 的 论文 参考 文 
献 数 量 在 全 部 影响 因素 排序 下 是 属于 论文 相关 因素 的 
前 两 位 。 在 作者 相关 影响 因素 排序 中 ,排名 第 一 的 第 
一 作者 平均 被 引 次 数 和 排名 第 二 的 第 一 作者 最 大 被 引 
次 数 在 全 部 影响 因素 排序 下 也 属于 作者 相关 影响 因素 
的 前 两 位 。 这 在 一 定 程度 上 相互 验证 了 全 部 影响 因素 
排序 下 输出 的 重要 性 排序 和 单 类 影响 因素 重要 性 排序 
的 正确 与 否 。 


5 结论 与 后 续 研究 


本 研究 对 与 引用 预测 有 关 的 影响 因素 进行 了 梳理 
分 类 ,得 到 作者 、 出 版 物 和 论文 三 类 影响 因素 ,选取 了 
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Information Science & Library Science 学 科 进 行 试验 , 首 
次 梳理 出 论文 引用 预测 的 影响 因素 重要 性 排序 ,并 且 
在 实验 过 程 中 ,引入 了 GBDT,XGBoost , AdaBoost 等 一 
系列 集成 学 习 方 法 进行 预测 ,取得 了 较 好 的 效果 。 

从 研究 结果 中 可 以 看 出 : 

(1) 当 At 分 别 取 1 年 .5 年 和 10 年 时 , 随 着 At 的 
增 大 ,7 种 算法 的 预测 能 力 都 有 明显 的 提升 ,说 明 时 间 
间隔 越 长 ,论文 的 被 引 情 况 就 越 趋 于 稳定 ,预测 的 效果 
也 就 越 好 ; 

(2) 在 7 种 算法 中 ,本 研究 所 引入 的 集成 学 习 算 
法 ,如 GBDT, XGBoost 和 随机 森林 取得 了 最 好 的 预测 
效果 ,说 明 集成 学 习 算 法 能 很 好 地 应 用 于 论文 引用 预 
测 中 ; 

(3) 通 过 影响 因素 重要 性 排序 分 析 发 现 ,作者 相 
关 的 影响 因素 和 论文 相关 的 影响 因素 比 出 版 物 相 关 的 
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KF, RR, Hi, F. 学 术 论文 引用 预测 及 影响 因素 分 析 [J]. 图书 情报 工作 ,2018 ,62(14) :29 - 40. 


影响 因素 对 论文 引用 预测 的 影响 更 大 。 在 作者 相关 的 
影响 因素 中 ,作者 的 篇 均 被 引 数 和 最 大 被 引 数 的 重要 
性 较 高 ,说 明 作者 的 被 引 数 在 一 定 程度 上 代表 了 作者 
在 其 研究 领域 中 的 影响 力 ,被 引 数 高 的 作者 能 吸引 到 
更 多 的 引用 ;在 论文 相关 影响 因素 中 ,论文 的 使 用 次 
数 .参考 文献 数量 和 页 数 相 对 论文 的 内 容 特征 来 说 更 
为 重要 。 这 也 与 人 们 的 日 常 认 知 相符 ,参考 文献 数量 
和 页 数 表征 了 作者 前 期 调研 和 后 期 研究 的 扎实 程度 ， 
而 论文 的 使 用 次 数 则 反映 了 论文 的 受 欢 迎 程度 ,使 用 
次 数 多 ,就 能 吸引 更 多 的 引用 ;而 在 出 版 物 相关 影响 因 
素 中 ,相对 于 被 业界 广 为 认 可 的 影响 因子 来 说 ,排除 自 
引 后 的 影响 因子 反而 体现 出 了 更 强 的 重要 性 ,说 明 自 
引 对 于 提升 学 术 影 响 力 并 没有 什么 太 大 的 作用 。 

本 研究 目前 仅 基于 已 有 的 研究 工作 ,将 论文 的 引 
用 预测 定义 为 二 分 类 问题 ,在 后 续 研 究 中 ,可 以 对 问题 
和 更 为 细致 的 定义 ,比如 使 用 更 加 细 粒 度 的 分 类 。 


另 织 ,将 采用 覆盖 更 多 学 科 的 数据 集合 ,针对 更 多 的 学 

科 表 据 进 行 研究 ,提取 出 更 多 可 能 影响 论文 被 引 的 因 

~y 以 期 形成 一 个 较为 完整 的 论文 引用 预测 方法 框架 。 
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Citation Prediction and Influencing Factors Analysis on Academic Papers 


Geng Qian Jing Ran Jin Jian Luo Qingyang 


School of Government, Beijing Normal University, Beijing 100875 

Abstract: [Purpose/significance | In this study, the prediction about future citation of a paper is analyzed by a set 
of'features, which intends to evaluate the academic influence of a scholar, a paper and/or a publication. [ Method/ 
pFotess ] In this study, publications, authors and papers are investigated to discuss potential factors for citation prediction 
and-SCI indexed papers in the field of Library Information are utilized as a concrete example to evaluate the validity of 
these factors. Several algorithms, such as logistic regression, GBDT, XGBoost, AdaBoost and Random Forest, are bench- 
márked on different evaluation metrics and the algorithm of GBDT is applied to identify influential factors. [ Result/con- 
clusion ] Three aspects of influential factors for citation prediction are analyzed and different approaches are evaluated, 
which aims to predict citations of papers in the near future. Categories of experiments are conducted and it is found that 
GBDT, XGBoost and Random Forest perform the best. Also, the performance of citation prediction tends to be better on 


papers with a relative longer publication time. 


Keywords: academic papers citation prediction | influencing factors 
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